『Data Uploader』ではツール1つで複数クラウドストレージ・アカウントへのファイルアップロードが可能です #データ統合基盤 #CSアナリティクス
当エントリは『クラスメソッド CSアナリティクス Advent Calendar 2020』12日目のエントリです。
- クラスメソッド CSアナリティクス Advent Calendar 2020 - Qiita
- クラスメソッド CSアナリティクス Advent Calendar 2020 | 特集カテゴリー | Developers.IO
- ビッグデータ分析支援のカスタマーストーリーアナリティクス|クラスメソッド|クラスメソッドのサービス
当エントリでは、クラスメソッドが展開しているデータ統合基盤サービス『CSアナリティクス』(以降"CSA")のプロダクト群の1つ、『Data Uploader』で"複数クラウドストレージ環境への出し分け"が出来るという点について紹介します。
目次
『Data Uploader』ではツール1つで複数クラウドストレージ・アカウントへのファイルアップロードが可能です
今回企画したアドベントカレンダーシリーズでは、機能紹介の他にも「CSAプロダクトにはこんな使い方も出来ますよ」「こんなポイントがありますよ」というところについてもご紹介していければと思っています。本日のエントリもそんな切り口でお届けするものとなっています。
昨今クラウド上で稼働するデータウェアハウスも数多く台頭してきており、その流れに乗る形で今回のアドベントカレンダーで扱っている『カスタマーストーリーアナリティクス(CSアナリティクス)』も今年の夏時点で複数データウェアハウス(Amazon Redshift、Google BigQuery、Snowflake)に対応する形となりました。
データウェアハウスにデータを取り込む際、まず行うのは「データウェアハウスに取り込むために必要なエリアにデータを用意しておく(アップロードしておく)」作業です。代表的な例でいうと、Amazon RedshiftであれはAmazon S3に、Google BigQueryであればGoogle Cloud Storageに...といったところです。
CSアナリティクスのプロダクトの1つである「CSA Data Uploader」は、現在この2つのストレージにファイルをアップロードする機能を兼ね備えています。
データウェアハウスを扱う上でファイルアップロードを異なる設定で行いたい、または複数データウェアハウスを活用している場合(これは同種製品の場合も、異なる製品の場合も双方ありえると思います)はそれら異なる環境にそれぞれアップロードを行いたい、というケースも出てくるかと思います。下記イメージ図は極端な例として図示してみましたが、用途や内容に応じて出し分けたい...ということも結構あったりするのではないでしょうか。
CSA Data Uploaderでは、この処理をとてもシンプルな手順で実現する事が出来ます。
CSA Data Uploaderでは入力(所定のデータソースからデータを抽出)及び出力(所定のデータソースにデータをアップロード)処理を構築する際、予めそのデータソースにアクセスするための「接続」を作成し、その作成した「接続」を使って処理を構築します。この「接続」を、用途に合わせた形で作り分けておくことで、やりたいことを実現出来る準備が整います。
- Amazon S3接続の場合:対象の条件に合う形でAWS CLIのプロファイル設定を用意、そのAWS CLIプロファイルを使ってS3接続を作成しておく
- Google Cloud Storage(GCS)接続の場合:対象の条件に合う形でサービスアカウントキーを作成、そのサービスアカウントキーを使ってGCS接続を作成しておく
「クラウドストレージへのアップロード」を行うジョブはそれぞれ用意する形となりますが、この設定・構成を用いることで「異なるクラウドストレージ、及び異なる設定毎への環境へのデータのアップロード」を実現する事が可能となります。
CSA Data Uploaderでは、今後もより便利で使い勝手の良いツールを目指すべく、入力及び出力のデータソース接続設定・種類を増やしていく予定です。
まとめ
という訳で、『クラスメソッド CSアナリティクス Advent Calendar 2020』12本目のエントリ、CSA Data Uploaderの複数DWH・接続先対応に関する紹介でした。CSA Data Uploaderは1ヶ月間のトライアル利用が可能となっています。興味をお持ち頂いた方は是非無料版ダウンロードページからインストーラを入手頂き、お試し頂けますと幸いです。
では、明日(13日目)のエントリもお楽しみに!